Formation Site Reliability Engineering – SRE

Site Reliability Engineering – SRE

La formation « Site Reliability Engineering - SRE » vous permettra de comprendre les principes fondamentaux de la Site Reliability Engineering et son rôle au sein des organisations modernes; de mettre en œuvre des outils et des pratiques pour améliorer la fiabilité des systèmes et de diagnostiquer et résoudre efficacement des incidents en production tout en rédigeant des rapports exploitables. Cette formation vous permettra également d'identifier des tâches répétitives (toil) et proposer des solutions d'automatisation pour améliorer l'efficacité des équipes et de concevoir des systèmes tolérants aux pannes et résilients grâce à des pratiques comme l'ingénierie du chaos et une approche centrée sur l'observabilité. Le programme est donné à titre indicatif et sera adapté à vos besoins et votre niveau après audit. N’hésitez pas à nous contacter pour toute demande spécifique.

En résumé

Distanciel
Présentiel

Pré-requis
Connaissance de base en systèmes informatiques et infrastructure (serveurs, réseaux), compréhension des concepts DevOps.
Public concerné
Ingénieurs développement logiciel, administrateurs système, ingénieurs DevOps, managers techniques, chef de projet.
Durée et tarif de la formation
La durée de la formation varie en fonction des besoins et des objectifs déterminés après audit. Les tarifs sont disponibles sur devis.
Lieux
Formation intra-entreprise au sein de votre établissement ou dans nos locaux de LA ROCHELLE (Charente-Maritime), NIORT (Deux-Sèvres) ou POITIERS (Vienne)
Téléchargement
Télécharger le programme de formation au format PDF
Télécharger

Contenu de la formation

Origines et principes de la SRE

L’émergence de la SRE chez Google et son lien avec DevOps.
Rôles et responsabilités d’une équipe SRE.
Cycle de vie d’un logiciel et gestion de la fiabilité.

Monitoring et Observabilité

Monitoring vs observabilité : différences et complémentarité.
Concepts clés : logs, métriques, traces, alertes.
Mise en pratique : concevoir un système d’alertes efficace.

SLA, SLO, SLI et gestion des budgets d’erreur

Définitions et importance pour la fiabilité des systèmes.
Introduction à la gestion des budgets d’erreur.
Étude de cas : définir des SLO et calculer un budget d’erreur.

Gestion des incidents

Organisation des équipes on-call et bonnes pratiques.
Diagnostiquer efficacement un incident.
Rédiger des rapports post-incident (blameless postmortems).
Exercice : étude d’un incident fictif.

Automatisation et réduction du toil

Identifier les tâches répétitives et à faible valeur ajoutée.
Stratégies pour l’automatisation efficace.
Atelier : repérer des tâches automatisables dans un environnement simulé.

Résilience et Ingénierie du Chaos

Conception pour la résilience et la tolérance aux pannes.
Introduction à l'ingénierie du chaos : principes et mythes.
Exemples concrets d'exercices GameDay.

Conception et observabilité avancées

Traçage distribué et instrumentation.
Les piliers de l’observabilité full stack.
Atelier : implémenter des contrôles synthétiques pour un système distribué.

Culture et organisation en SRE

Intégration des SRE dans une organisation agile.
Construire une culture de sécurité psychologique et d’apprentissage continu.
Impact de la SRE sur les équipes DevOps.

En résumé

Pré-requis

Public concerné

Durée et tarif de la formation

Lieux

Téléchargement

Contenu de la formation